概念

Extreme Co-Design(极端协同设计)

概念解析

定义与起源

Extreme Co-Design黄仁勋摩尔定律已死 之后给出的工程哲学:当晶体管的免费午餐结束之后,要继续让性能指数级增长,就必须同时优化模型算法、系统软件、芯片架构、网络、机柜结构、电源、冷却——把"框内创新"变成"框外创新"

最完整的一段定义出现在 2025-09 BG2 Pod - OpenAI 与算力未来

"Extreme co-design means that you have to optimize the model algorithm, system and chip at the same time. You have to innovate outside the box. Because Moore's law said you just have to keep making the CPU faster. Everything got faster. You were innovating within the box. Well, if that chip doesn't go any faster, then what are you going to do? Innovate outside the box."

"Extreme co-design 就是你得同时优化模型算法、系统和芯片——你必须在框外创新。因为摩尔定律告诉你只要让 CPU 更快就行——那是框内创新。但如果那颗芯片不能更快了,你怎么办?框外创新。"
——2025-09 BG2 Pod - OpenAI 与算力未来

核心要义

第一,问题已经装不下一台计算机了。

2026-03 Lex Fridman 494 - 4 万亿公司与 AGI黄仁勋 给出了 Extreme Co-Design 的根本理由:

"The problem no longer fits inside one computer. You would like to go faster than the number of computers that you add. Then all of a sudden you have to take the algorithm, shard the pipeline, shard the data, shard the model. The CPU is a problem, the GPU is a problem, the networking is a problem, the switching is a problem. Everything is in the way."

"问题已经不能装进一台计算机里了。你加上 1 万台计算机,却希望它跑得比 1 万倍还快 100 倍。在这种规模的分布式计算里,CPU 是问题,GPU 是问题,网络是问题,交换机是问题——每一样东西都挡在路上。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

第二,Blackwell 比 Hopper 快 30 倍——不是靠晶体管,是靠跨层重做。

2025-09 BG2 Pod - OpenAI 与算力未来 给出了最震撼的对比:

"Blackwell to Hopper is 30 times. No Moore's law could possibly achieve that. That's because NVIDIA got into networking and switching and scale up and scale out and scale across, building CPUs and building GPUs and building NICs."

"Blackwell 对 Hopper 是 30 倍。摩尔定律连十分之一都给不了。这是因为 NVIDIA 同时重做了 CPU、GPU、网络芯片、NVLink scale-up、Spectrum-X scale-out、冷却、电源、机架——全部重新设计。"
——2025-09 BG2 Pod - OpenAI 与算力未来

第三,一年一代意味着 6-7 颗芯片同步进化。

"我们一年出一代——每一代都是 6-7 颗芯片同步进化,整个系统每年推倒一次。谁会给一个首次流片的新架构下 500 亿美金的 PO?NVIDIA 可以,因为架构已经验证过,客户规模极大,供应链规模极大。"
——2025-09 BG2 Pod - OpenAI 与算力未来

第四,Extreme Co-Design 不只发生在 NVIDIA 内部,是一整条上下游产业链的协同。

2026-03 Lex Fridman 494 - 4 万亿公司与 AGI黄仁勋 花了一大段讲他怎么提前 5 年说服 HBM 厂商投资、把手机用的 LPDDR5 内存搬进超算、和 ASML、TSMC、SK Hynix、GE、Caterpillar 同时谈:

"I shape, inform, inspire upstream and downstream simultaneously. Every rack has 1.3 to 1.5 million parts, 200 suppliers."

"我同时塑造、告知、激励上游和下游。每个机架 130-150 万个零件,200 家供应商。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

这是 Extreme Co-Design 的真正"极端"——它跨越了整个半导体产业的边界。

实践应用

常见误区

误区一:Extreme Co-Design 只是"系统集成"。
错。系统集成是组装现成模块;Extreme Co-Design 是 同时重做 算法、系统、芯片、互联——任何一层不动,下一层就被卡住。

误区二:Extreme Co-Design 只有 NVIDIA 这种巨头才做得起。
对一半。但 黄仁勋2025-09 BG2 Pod - OpenAI 与算力未来 强调:"这是 ASIC 的根本困境——你三五年前立项的时候,整个行业看起来只是'一颗 GPU';今天它是整个 AI 工厂——transformer 架构每六个月就在变。" 不做 Extreme Co-Design 不是"做不起",是会被时代甩开。

误区三:Extreme Co-Design 等于"更复杂的产品"。
错——结果反而更便宜。Blackwell NVLink72 用 NVLink Switch 直接驱动铜线,省下 20 千瓦的光收发器——单是这一项节省的电力就能在 1 GW 工厂里多塞几十个机柜。

黄仁勋原话精选

"You have to innovate outside the box."
"你必须在框外创新。"
——2025-09 BG2 Pod - OpenAI 与算力未来

"No Moore's law could possibly achieve that."
"摩尔定律根本不可能做到这件事。"
——2025-09 BG2 Pod - OpenAI 与算力未来

"We present a problem and all of us attack it. Because we're doing extreme co-design, whoever wants to tune out, tune out."
"我们把一个问题端出来,所有人一起攻。这是 extreme co-design,谁想走神就走神。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

"Every problem no longer fits inside one computer to be accelerated by one GPU."
"每一个问题都不再能装进一台计算机用一颗 GPU 来加速。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

思想演变

相关概念

典型案例